GUIエージェント(Computer use)
LLMでPCを操作!?Claudeの新機能「computer use」を早速試してみた
Omniparser
OmniParser for pure vision-based GUI agent
Large Language Model-Brained GUI Agents: A Survey
Agent S: An Open Agentic Framework that Uses Computers Like a Human
OmniParser for Pure Vision Based GUI Agent
OS-Atlas: A Foundation Action Model For Generalist GUI Agents
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介
BrowserGym
browsergym leader board
これはもう実質AGIでは? AIが勝手にブラウザを操作していろいろやってくれちゃう BrowserUseが爆誕
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
Python と Playwright でブラウザを自動操作させるコードを自動生成したよ
browser-useの改良とAIエージェントとの繋ぎこみ
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection
operatorの概要
Browser UseのWeb UIを使いながらAIエージェントの業務システムへの適用を考える
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
E2B Desktop Sandbox: GUI操作Agentのための安全な仮想環境
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
Computer Use〜OpenAIとAnthropicの比較と将来の展望
Computer-Using Agent向け日本語VLM「KARAKURI VL」を試す
GTA1: GUI Test-time Scaling Agent